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【 目的 】 探究 与 设计 基于 图 书 情报 领域 、 中 文科 技 论文 


通过 调研 的 方法 , 结合 人 工 标注 结果 及 图 情 领域 中 文科 技 论 文 、 图 表 的 特 和 
分 析 揭 示 该 摘要 系统 的 表现 。[ 结果 】 本 研究 构建 的 


评测 系统 ， 基 于 SPSS 统计 结 


以 图 书 情报 领域 为 例 


i 
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图 表 摘 要 构建 的 结构 ， 并 制定 构建 规则 。[ 方法 】 


E, 设计 摘要 框架 并 规定 构建 规则 , 最 


图 表 摘 要 在 图 片 信息 


理解 程度 、 效 率 、 确 信 度 等 维度 上 的 表现 均 优 于 现 有 图 片 -文本 组 合 模式 。[ 局 限 】 图片 信息 获 盖 率 有 竺 提高 、 


未 考虑 清楚 图 表 类 型 所 带 来 的 差异 、 未 完全 实施 自动 化 标 引 。[【 结论 ] 依据 本 研究 设计 的 中 文科 技 论文 图 表 摘 要 
构建 结构 与 规则 所 形成 的 图 表 摘 要 能 有 效 提高 用 户 对 文献 主要 内 容 的 准确 理解 度 。 
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1 3 引 


在 科研 过 程 中 , 用户 经 常 需 要 浏览 大 量 的 科技 论 
文 以 获知 领域 发 展 情况 或 了 解 相 关 专 业 知 识 , 然而 通 
常情 况 下 ,数据 库 的 检索 结果 可 达 数 百 篇 ， 对 于 某 些 
热门 且 发 展 较 成 熟 的 领域 而 言 ， 甚 至 可 达 上 万 篇 。 在 
这 样 的 形势 下 , 用 户 通 过 阅读 全 文 获悉 文献 的 主题 内 
容 显然 是 极其 耗 时 耗 力 的 , 所 以 笔者 认为 ,用 户 一 般 
只 会 租 选 其 中 某 些 结构 内 容 进 行 阅 读 ， 如 题名 、 摘 要 
等 ,这 也 与 前 期 调研 的 结果 相似 。 然 而 , 文献 作者 用 来 
解释 文献 主题 的 方式 呈现 多 样 化 因此 题 录 信息 通 


了 


但 其 处 理 对 象 大 多 为 英文 文本 ， 基 于 汉语 与 西方 语言 
体系 之 间 的 极 大 差异 , 目前 的 研究 结果 对 于 中 文 文本 
而 言 存在 一 定 的 不 适用 性 , 且 大 多 是 对 基于 算法 模型 
建立 的 特征 进行 自动 抽取 , 忽略 了 用 户 在 科研 过 程 中 
获取 知识 这 一 系列 行为 的 特点 。 

因此 , 本 研究 主要 针对 以 下 三 点 做 出 改进 : 通过 
实地 访谈 的 方式 ， 从 用 户 在 科研 活动 中 的 行为 习惯 这 
一 角度 ,形成 特有 的 图 表 摘 要 抽取 方式 ; 基于 中 文科 
技 论 文 进行 图 表 摘要 研究 ， 从 一 定 程 度 上 改进 了 现 有 
研究 对 象 大 多 为 英文 这 一 现象 的 不 足 ; 结合 用 户 科 研 
习惯 , 生成 了 一 套 合乎 逻辑 的 摘要 组 织 方式 ， 更 有 利 


常 不 足以 涵盖 论文 主题 ， 除 却 文 字 之 外 , 图 表 是 最 经 
常 被 用 于 估 证 研究 结果 的 形式 扬 ， 其 中 包含 大 量 论文 
主题 的 关联 信息 外 ,因而 , 若 能 够 构造 精简 且 包 含 图 表 
内 容 及 其 所 揭示 内 容 的 图 表 摘 要 ,对 于 科研 人 员 而 言 ， 
无 疑 是 帮助 其 更 高 效 理 解 文献 主题 最 有 力 的 途径 。 
国内 外 已 有 不 少 学 者 对 图 表 标 引 做 了 相关 研究 ， 


于 用 户 获 取 科 技 知识 。 根 据 本 研究 构建 的 摘要 组 织 方 
式 而 形成 的 图 表 摘 要 ,能 够 为 用 户 提供 一 种 解释 论文 
主题 的 新 方式 。 
2 研究 现状 

文献 中 与 图 表 关 联 的 信息 极其 分 散 ， 图 表 摘 要 的 
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目的 是 将 这 些 信 息 中 与 文献 主题 内 容 关 联 性 较 大 的 部 
分 抽取 出 来 并 基于 规则 合成 一 段 简要 且 符 合 逻 辑 的 文 
摘 ， 以 助 于 用 户 对 图 表 信 息 及 文献 主题 信息 的 抽取 。 
图 表 自 动 摘要 (Figure Summarization) 负 这 一 概念 自 提 
出 以 来 就 受到 了 极 大 关注 , 经 笔者 梳理 发 现 , 目前 
学 者 主要 针对 特征 抽取 、 判 定 句 子 权重 、 建 立 标 引 算 
法 、 摘 要 组 织 、 确定 评价 标准 这 5 个 关键 技术 展开 大 
量 人 研究 。 
2.1 ”特征 抽取 

用 于 抽取 图 表 摘 要 的 特征 主要 分 为 以 下 三 类 : 

(1) 物理 特征 

物理 特征 包括 句子 的 位 置 特 征 、 句 子 的 长 度 特征 、 


词 频 特 征 三 种 。Luhn 上 提出 高 频 词 更 有 利于 揭示 论文 
主题 ; Nakov 等 四 指出 文章 中 引用 句子 周围 的 文本 更 为 
重要 ; 周 浪 等 外 则 提出 基于 词 频 分 布 变 化 统计 的 关键 
术语 抽取 方法 。 

(2) 语义 特征 

语义 特征 包括 与 图 表 、 重 要 段落 、 题 名 三 种 主体 
有 关 的 语义 相似 度 ， 可 选用 VSM 、simHash 、LSA 
(Latent Semantic Analysis) 等 模型 算法 对 语义 相似 度 进 
行 计算 。 如 Hirao 等 外 利用 句子 间 相 似 性 的 特征 判断 句 
子 的 重要 程度 ; 张帆 等 外 利用 关键 词 词 表 及 领域 词 表 
对 文章 题名 进行 处 理 , 并 将 文章 中 与 处 理 后 的 题名 相 
似 度 高 的 语句 作为 与 主题 相关 度 高 的 对 象 抽取 出 来 。 

(3) 文本 特征 

文本 特征 包括 相关 句 的 句法 特征 、 相 关 段 落 的 结 
构 特 征 、 关 键 词语 三 方面 。 如 Brunn 等 上 利用 实体 词 
间 的 联系 进行 句子 抽取 ; 王 芳 等 中 研究 了 2000 年 - 
2013 年 《情报 学 报 》 上 刊登 文献 的 语法 结构 等 特征 ,发 
现 句子 中 心 语 部 分 一 般 由 “理论 "、“ 模 型 "等 词语 充当 ， 
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(1) 基于 物理 特征 

以 下 两 种 观点 被 普遍 接受 : 段落 开头 和 结尾 的 句 
子 更 能 解释 论文 主题 ; 可 以 以 具有 提示 性 词语 如 “如 
图 X 所 示 ” 的 句子 为 中 心 ， 以 滑动 窗口 n 为 界限 , 前 后 
截断 (1+2n) 个 句子 作为 关键 名 。 

(2) 基于 语义 特征 

利用 余弦 相似 性 等 算法 计算 句子 与 图 表 标 题 、 重 
要 段落 、 题 名 的 语义 相似 度 ， 认 为 分 值 越 高 则 关联 性 
越 大 。 如 FigSum+ 算 法 5 即 通过 计算 所 抽取 句子 与 图 
表 标 题 的 TF-IDF 值 来 筛选 得 分 较 高 的 句子 ; Ranking 
SVM05 丽 数 是 一 项 基于 PairWise 方法 的 机 器 学 习 算 
法 ,其 实质 是 利用 SVM 为 每 一 个 句子 赋予 一 个 分 数 ， 
以 此 作为 判断 其 与 中 心 句 关联 程度 的 依据 ， 即 分 数 越 
高 ， 其 与 中 心 句 的 关联 越 紧 密 ; 潜在 狄 利克 雷 分 布 
(Latent Dirichlet Allocation, LDA) 模 型 是 基于 语义 分 析 
的 模型 , 一 般 会 同时 利用 贝 叶 斯 算法 进行 关联 性 高 的 
句子 的 抽取 操作 09。 

(3) 基于 文本 特征 

句子 与 中 心 句 距离 越 近 , 则 越 重 要 。 如 Radev 等 上 
基于 质心 对 句子 进行 聚 类 ， 从 而 抽取 出 距离 质心 最 近 
的 句子 和 它 周 围 的 句子 。 
2.3 标 引 算法 设计 

目前 ， 研 究 人 员 设 计 的 图 表 内 容 自 动 摘 要 算法 ， 
主要 分 为 两 种 : 

(1) 非 监督 式 标 引 算法 : 即 不 受 文献 既定 的 约束 
条 件 ， 直接 依 照 某 种 方法 进行 图 表 相关 文本 抽取 的 方 
式 。 例 如 ， 从 文本 中 随机 抽取 n 个 段落 , 将 这 些 段落 的 
首 句 经 整合 直接 作为 图 表 的 摘要 。 但 非 监督 式 标 引 算 
法 下 分 的 几 种 实际 操作 方法 大 多 具有 随机 性 较 大 的 特 
点 ,所 以 用 此 算法 形成 的 摘要 在 完整 性 和 准确 性 上 表 


而 理论 本 身 通常 是 句子 的 定 中 短语 (或 称 偏 正 短语 ); 
Dahlt 了 4 和 Parkinsont 在 文献 创新 点 抽取 过 程 中 , 运用 
语言 学 特征 总 结 区 分 了 7 类 重要 特征 的 引导 词 例 。 

现 有 抽取 特征 维度 众多 , 但 大 多 数 抽 取 模 型 偏重 
于 就 其 中 一 种 维度 进行 研究 ,上 且 大 多 特征 建立 在 算法 
统计 的 基础 上 , 较 少 注意 到 用 户 本 身 的 科研 需求 。 
2.2 ”句子 权重 计算 

计算 句子 权重 是 通过 某 一 种 测度 方法 将 句子 与 图 
表 的 关联 程度 量化 ,以 选择 出 那些 更 加 重要 的 句子 作 
为 摘要 组 成 。 现 有 权重 判定 的 观点 主要 分 为 以 下 几 种 : 


数据 分 析 与 知识 发 现 


现 均 较 差 。 

(2) 监督 式 标 引 算法 : 即 图 表 相 关 文 本 抽取 的 过 
程 会 受到 文献 甚至 图 表 内 容 既 定 的 条 件 约束 ， 除 此 之 
外 ,抽取 的 过 程 通常 结合 多 种 抽取 特征 ， 并 将 经 权重 
判断 、 筛 选 后 的 n 个 句子 作为 图 表 摘 要 的 预选 内 容 。 
例如 ，FigSum+ 算 法 号 综合 了 : 相似 度 (Similarity) 、 
TF-IDF 值 、 表 面 线 索 (Surface Cue) 、 段 落 特征 
(Paragraph)、 混 合 特征 (Hybrid) 共 5 种 特征 以 确定 符合 
抽取 要 求 的 句子 ; FigSum 算法 吕 则 将 全 文 的 句子 分 为 
前 言 (ntroductiom)、 方 法 (Methods)、 结 果 (Results) 和 讨 


论 (Discussion) 4 个 部 分 ， 而 后 分 别 在 这 4 个 部 分 中 抽 
取 与 图 表 标 题 语义 最 为 相近 的 m 个 句子 , 最 后 将 其 组 
合成 结构 化 的 摘要 一 一 分 别 对 应 于 图 表 的 : 背景 、 分 
析 方 法 、 研 究 结论 或 成 果 、 揭 示 的 意义 。 
2.4 摘要 组 织 方式 

将 筛选 出 的 句子 按照 一 定 的 方式 组 成 一 篇 完整 的 
摘要 ， 目 前 的 组 织 方式 可 分 为 两 类 : 抽取 式 和 生成 式 。 

抽取 式 摘 要 组 织 方式 仅 将 已 筛选 出 的 句子 做 简单 
的 连接 ， 而 不 做 其 他 调整 ; 生成 式 摘要 组 织 方式 则 是 
基于 系统 已 有 的 专业 领域 语料库 , 通过 自然 语言 处 理 
的 方法 , 构建 新 的 语义 相似 的 句子 以 取代 筛选 出 的 内 
容 。 如 FigSuml 系统 中 按照 背景 、 实 验方 法 、 研 究 结 
果 和 研究 意义 组 成 图 表 摘要 。 
2.5 摘要 系统 评价 

目前 对 于 图 表 自 动 摘要 系统 的 评价 方法 可 分 为 
两 种 : 

(1) 直接 评价 : 直接 对 摘要 系统 生成 的 文摘 做 内 
容 分 析 , 通过 与 其 他 模型 作 比 较 判 断 其 流畅 程度 、 内 
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容 完 整 度 。 

(2) 间接 评价 : 通过 评价 模型 对 某 一 任务 的 完成 
情况 评测 该 系统 ， 比 如 根据 生成 结果 的 查 全 率 
(RecalD) 、 查 准 率 (Precisiom 和 下 值 等 。 且 研究 者 根据 
不 同 任务 需求 和 特点 , 已 生成 融合 了 P 值 、R 值 等 多 
种 指标 在 内 的 综合 型 评定 方法 ， 如 关 鹏 等 59 提 出 的 
LDA 科技 文献 主题 抽取 效果 评价 体系 就 是 融合 了 包 
括 P 值 、F 值 等 定量 方法 及 基于 主题 抽取 的 广度 和 主 
题 粒度 的 定性 评定 方法 的 综合 型 评价 体系 。 

由 此 , 依据 现 有 研究 成 果 的 不 足 之 处 ,本文 结合 
文献 及 访谈 调研 的 结果 ,基于 用 户 对 文献 主题 的 理解 ， 
对 中 文科 技 论文 图 表 摘 要 的 设计 展开 研究 , 构建 一 套 
针对 中 文科 技 论文 的 图 表 摘 要 规则 ,以 帮助 用 户 更 高 
效 地 理解 科技 论文 的 主题 。 


3 论文 图 表 摘 要 结构 设计 与 构建 


为 了 构建 中 文科 技 论文 图 表 摘 要 ,本 研究 设计 了 
以 下 研究 流程 ， 如 图 1 所 示 。 
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图 1 本 研究 整体 流程 
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本 研究 将 从 文献 及 访谈 调研 入 手 , 总 结 得 出 基于 
用 户 研究 需求 的 图 表 摘 要 应 当 具 备 的 组 成 部 分 , 依照 
访谈 得 出 的 文本 位 置 特征 和 结构 特征 , 采用 人 工 标注 
的 方式 对 一 定量 的 论文 进行 处 理 , 通过 大 量 的 规律 总 
结 确定 抽取 图 表 摘 要 的 标准 和 规范 ,建立 用 于 构建 图 
表 摘 要 的 一 系列 规则 , 包含 图 表 摘 要 信息 的 抽取 规则 与 
组 织 规则 。 除 此 之 外 , 还 设计 了 一 套 评测 系统 ,包含 4 
种 图 表 - 文 本 组 合 模式 , 通过 对 评测 结果 的 剖析 , 对 科技 
论文 图 表 摘 要 的 相关 研究 起 到 一 定 的 推动 作用 。 

3.1 摘要 结构 的 设计 

对 于 文献 的 理解 少不了 用 户 的 主观 判断 ， 这 个 过 
程 涉及 许多 难以 量化 的 判断 ， 比 如 用 户 的 学 术 思 想 、 
个 人 经 验 等 。 因此 ,本 研究 对 领域 共 20 名 硕士 研究 生 
及 博士 研究 生 进行 了 半 结 构 化 面对面 深度 访谈 , 通过 
此 次 调研 ， 了解 了 以 用 户 的 实际 经 验 来 看 , 一 篇 完整 
的 图 表 摘 要 应 具备 的 基本 构件 , 基于 此 , 探寻 各 构件 
与 文献 文本 结构 间 的 关联 并 分 析 探 讨 了 每 一 构件 通常 
存在 的 位 置 及 其 特征 等 。 

本 研究 未 选用 通常 大 样本 调查 采取 的 问卷 调查 方 
法 ,而 是 采用 小 样本 的 面对面 深度 访谈 和 文献 资料 查 
阅 , 之 所 以 如 此 ,主要 是 为 了 避免 由 于 被 调查 者 在 填 
写 问卷 时 为 赶 时 间 而 敷衍 了 事 所 造成 的 偏差 导致 无 实 
际 意 义 的 情况 , 并 且 问 卷 调查 的 方式 会 产生 答案 的 封 
闭 性 , 独 用 此 方法 采集 科研 人 员 对 于 类 似 本 研究 中 极 
面向 思维 的 问题 的 答案 就 会 导致 研究 人 员 无 法 获悉 被 
调查 者 的 真实 思维 过 程 ， 最 终 得 出 的 结论 也 只 是 笔者 
及 团队 人 员 的 推断 , 因此 ,设计 出 的 问卷 的 信 度 与 效 
度 都 会 较 低 , 同时 间 卷 调查 的 回收 率 与 质量 都 难以 保 
证 ,面对面 深度 访谈 虽然 需要 更 大 工作 量 的 前 期 准备 
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题 项 
在 什么 数据 库 检 索 、 下 载 文献 ? 
如 何 判断 文献 内 容 是 否 符合 自己 需求 ? 
内 容 能 够 帮助 快速 理解 全 文 ? 
b 些 内 容 是 重要 的 、 有 助 于 理解 的 ? 


阅读 图 表 乓 
文献 中 与 图 表 相 关 且 重要 的 信息 的 特征 ? 
文献 图 表 与 文献 摘要 所 揭示 内 容 的 关系 ? 

与 图 表 相 关 的 哪些 信息 有 助 于 快速 理解 全 文 ? 

图 2 半 结 构 化 面对面 深度 访谈 提纲 


(1) 领域 中 研究 人 员 和 常用 的 数据 库 有 万 方 、 知 网 、 
WOS 、 和 谷歌 学 术 、 百 度 学 术 、Springer 、 影 响 因子 较 
高 的 学 术 期 刊 、PubMed、NCBI、 日 本 生物 信息 统计 
网 站 等 。 

(2) 用 户 在 数据 库 中 检索 文献 时 ， 经 常 通过 标题 、 
摘要 、 关 键 词 、 期 刊 杂 志 、 图 表 ( 横 纵 坐 标 )、3 引 用 文 
献 与 发 表 年 份 等 文献 构成 要 素 判 断 文 献 是 否 为 自己 所 
需 ( 要 素 排 列 按 统计 票数 由 高 到 低 排列 ); 研究 人 员 在 
快速 阅读 一 篇 文献 时 为 准确 理解 文献 主题 内 容 会 着 重 
阅读 文献 的 摘要 、 结 果 、 讨 论 等 部 分 ,其 次 是 引言 、 
方法 及 图 表 图 释 部 分 。 

本 研究 据 此 提出 假设 , 研究 人 员 在 依据 经 验 浏览 
全 文 文献 并 判断 文献 是 否 可 为 自己 所 用 时 的 依据 与 文 
献 主要 内 容 有 密切 的 联系 。 

(3) 研究 人 员 认 为 在 阅读 文献 时 , 文献 中 的 图 表 
对 于 快速 了 解 文献 主题 内 容 有 极 大 帮助 。 他 们 认为 文 
献 中 的 图 表 对 于 实际 实验 研究 有 重要 的 辅助 参考 性 ， 
有 时 图 释 信息 还 会 写 明 实验 的 简要 操作 过 程 。 有 被 访 
者 提 到 ,专业 且 经 验 充 足 的 学 者 在 阅读 英文 文献 时 ， 


与 后 期 整理 , 也 在 一 定 程度 上 加 大 了 调研 的 实施 难度 ， 
但 基本 能 够 保证 信息 与 资料 来 源 的 客观 性 、 开 放 性 并 
提高 了 调研 的 信和 度 与 意义 。 

访谈 提纲 的 设计 如 图 2 所 示 , 以 了 解 图 表 摘 要 的 
基本 结构 为 基础 , 访谈 的 形式 包括 面对面 访谈 与 线 上 
约 谈 ( 均 为 个 人 ) 两 种 方式 。 

由 于 本 项 调研 在 方法 选择 上 的 特殊 性 , 获得 了 大 
量 内 容 丰 富 却 相对 繁杂 、 不 易 处 理 的 信息 , 通过 梳理 ， 
汇总 分 析 后 形成 以 下 几 项 结果 ， 虽 不 是 访谈 结果 的 全 
部 , 但 笔者 认为 是 重要 且 对 后 续 研 究 极 具有 现实 意义 
的 内 容 。 
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通常 会 在 摘要 后 首先 看 图 表 图 释 ， 因 为 外 文 文献 的 研 
究 已 经 初步 形成 了 基于 全 文 文献 的 图 释 ， 所 以 这 些 学 
者 可 以 根据 图 释 及 本 身 的 研究 经 验 了 解 文献 研究 的 主 
要 内 容 。 而 对 于 中 文 文献 而 言 ， 因 为 其 图 表 缺 少 类 似 
的 图 释 信息 , 学 者 在 看 到 图 表 之 后 还 需要 文献 中 其 他 
部 分 的 信息 才能 够 大 体 了 解 文献 的 主要 内 容 ,这 说 明 
图 表 摘 要 对 于 快速 准确 地 理解 全 文 内 容 起 到 重要 的 作 
用 , 也 在 一 定 程度 上 伍 证 了 本 研究 的 实际 意义 。 

文献 及 访谈 调研 的 梳理 流程 如 图 3 所 示 。 根 据 调 
研 的 结果 , 本文 提出 ,中 文科 技 论 文 图 表 摘 要 的 结构 应 
包含 以 下 部 件 : 目的 、 背 景 、 方 法 及 结论 。 


常用 数据 库 图 释 
构成 分 析 


调研 数据 库 选 择 


调研 人 员 


3.2 ”摘要 抽取 的 方法 
通过 访谈 及 文献 调研 发 现 , 论文 中 与 图 表 相关 的 
言 息 分 散在 文本 中 的 各 个 部 分 ,图 表 标 引 就 是 要 找 出 
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存在 独立 图 片 列表 
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阅读 习惯 | _ 存在 独立 图 片 列表 
文献 重点 关注 部 分 
| 实地 访谈 | 
一 一 >| ”摘要 与 图 表 关系 
2 | | >| 文献 下 图 表 相关 模 磊 
| | 与 同 表 相关 信息 特征 
半 结 构 化 访谈 提纲 | 
图 3 文献 及 访谈 调研 的 梳理 


短 的 结构 化 摘要 ,帮助 用 户 理解 图 表 信 息 ,进而 提高 
对 文献 主题 内 容 的 理解 。 通 过 分 析 图 表 标 引 方 法 , 本 
文 认为 图 表 标 引 的 关键 技术 主要 包括 特征 选取 、 判 定 


这 些 分 散 的 有 效 信息 并 进行 集中 ， 即 将 文献 文本 中 与 
图 表 内 容 最 相关 的 若干 句子 抽取 出 来 并 整合 成 一 段 简 


句子 权重 、 建 立 标 引 算法 、 组 织 摘要 、 确 定 评价 标准 
5 个 方面 。 本 文 所 用 技术 如 图 4 所 示 。 


位 置 


文本 抽取 规则 选取 文本 特征 


确定 滑动 窗 


| 一直 抽取 句子 


线索 抽取 直接 抽取 


图 表 标 题 


指示 性 标语 


摘要 组 织 规则 


确定 摘要 结构 


上 一 > 摘要 句子 排列 


图 4 中 文科 技 论文 图 表 摘 要 抽取 方法 


(1) 特征 选取 

在 综合 考量 已 有 的 理论 研究 和 实践 成 果 后 ， 本 文 
抽取 特征 有 文本 物理 特征 ， 如 句子 的 位 置 特征 、 长 度 
特征 及 与 图 表 相关 的 文本 特征 。 

除 此 之 外 , 本 研究 认为 还 可 根据 文本 特征 进行 句 
子 权重 的 判定 ， 即 根据 上 述 列 出 的 特征 可 以 判定 文献 
中 的 句子 对 于 揭示 图 表 内 容 的 重要 性 ， 并 赋予 每 个 名 
子 分 值 , 最 后 将 权 值 较 高 的 句子 抽取 出 来 作为 关键 句 


组 成 摘要 。 

利用 文本 物理 特征 判定 权重 : 

论文 的 开头 揭示 了 论文 的 中 心思 想 和 观点 ,句子 与 
论文 开头 的 距离 越 近 , 与 论文 主题 的 相关 度 越 高 ; 论文 的 结 
尾 概 括 了 论文 的 主要 成 果 和 结论 ， 和 句子 与 论文 结尾 的 距离 
越 近 ,与 研究 结果 的 相关 度 越 高 。 通 常 段 首 句 和 上 段 末 句 也 被 
赋予 较 高 的 权 值 。 

@) 与 提 及 图 表 的 文本 的 距离 ， 直 接 影 响 到 该 句子 与 图 
表 内 容 的 相关 度 ; 以 提 及 图 表 的 句子 为 中 心 距 设 定 一 个 滑 
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动 窗 口 的 范围 ， 落 在 滑动 窗口 之 外 的 句子 与 图 表 内 容 关 联 
度 不 高 。 

另外 文献 中 包含 一 些 指 示 性 的 词语 如 : 表明 、 反 
映 、 说 明 等 ,或 者 是 一 些 指 示 性 的 短语 如 :“ 如 图 X 所 
示 ” 等 , 这 些 词 或 短语 可 以 作为 找到 与 图 表 内 容 相 关 
的 文本 的 线索 特征 。 根 据 这 些 线索 词 和 指示 性 短语 可 
以 找到 与 图 表 相 关 的 关键 句 和 特征 段落 。 

综合 考虑 上 述 文本 特征 , 得 分 最 高 的 n 个 句子 最 
终 被 抽取 出 来 作为 图 表 摘 要 的 内 容 。 

(2) 抽取 规则 的 建立 

本 研究 应 用 抽取 式 的 方法 ， 即 从 文献 文本 中 抽取 
出 相关 度 最 高 、 能 提供 有 用 信息 的 句子 , 并 将 其 联接 
起 来 构成 一 段 摘 要 用 以 标 引 图 表 ; 而 摘要 式 的 方法 则 
需要 先 理 解 文献 的 中 心思 想 ， 基 于 这 些 思想 和 文献 主 
题 , 运用 自然 语言 处 理 的 方法 构建 新 的 高 度 概括 的 句 
子 以 取代 文献 文本 中 相同 内 容 但 较为 繁杂 的 句子 , 并 
整合 生成 一 段 摘 要 用 以 标 引 图 表 。 本 文 围绕 如 下 几 方 
面 制 定 了 用 于 处 理 摘 要 原始 数据 的 标准 。 

首先 是 抽取 规则 , 将 其 分 为 两 个 部 分 

人 直接 提取 

1) 标 题 : 即 图 表 的 名 称 ， 如 果 图 表 下 方 无 注 明 , 则 利用 
关键 词 作 为 线索 ,提取 文献 中 记录 的 图 表 名 称 。 

2) 注 释 : 即 图 表 下 方 的 注释 ， 若 无， 则 略 过 。 

加 线索 截取 

TD) 线索 词 0251: 根据 线索 词 ， 如 :“ 说 明 ”、“ 表 示 ”、“ 可 以 
看 出 ”等 ， 找 出 文献 文本 中 相应 结构 的 图 表 信 息 。 

2) 指 示 性 短语 0151: 根据 指示 性 短语 ， 如 :“ 如 图 义 所 示 ”、 
“如 下 图 所 示 ” 等 ， 抽 取出 文献 文本 中 有 效 的 图 表 信息 。 

3) 滑 动 窗口 RU: 即 抽取 出 包括 关键 名 在 内 的 前 后 KK 个 
句子 作为 最 终 图 表 信息 的 原始 材料 。 经 过 前 期 人 工 标注 的 表 
现 及 前 人 的 经 验 ， 本 文 最 终 规定 : K=5。 

其 次 是 组 织 规则 , 按照 3.1 节 设 计 与 构建 的 摘要 
结构 , 即 目的 、 背 景 、 方 法 和 结论 ,针对 每 一 结构 的 特 
征 、 结 合 上 述 抽取 规则 规定 每 一 结构 中 包含 的 图 片 信 
息 来 源 及 其 特征 : 

人 四 目的 : 这 一 部 分 的 图 片 信 息 来 源 于 文献 文本 中 的 摘 
要 及 前 言 部 分 。 图 表 摘 要 的 目的 主要 是 为 了 揭示 这 张 图 表 要 
表达 的 主要 内 容 ,通常 可 以 由 1、2 个 句子 概括 完成 , 但 笔者 
发 现 有 些 图 表 的 目的 不 会 在 文献 文本 中 单独 说 明 ， 却 和 文 
献 目的 有 极 大 相似 性 ， 所 以 在 抽取 过 程 中 ， 如 果 无 法 找到 
单一 的 图 表 摘 要 目的 ， 可 结合 文献 目的 组 织 成 相应 的 图 表 
目的 。 

加 背景 : 这 一 部 分 的 图 片 信 息 来 源 仍 是 文献 文本 中 的 
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摘要 及 前 言 部 分 。 图 表 背 景 通常 较为 复杂 ， 抽 取 及 组 织 标 引 
都 较 有 难度 ， 通 过 前 期 一 定量 的 人 工 标 注 发 现 ， 图 表 背 景 可 
结合 文献 背景 及 学 科 背 景 进行 组 织 。 

@@ 方 法 : 这 一 部 分 的 图 片 信息 来 源 于 文献 文本 中 的 方 
法 部 分 。 通 过 前 期 工作 ,本 文 认 为 ， 图 表 方 法 通常 会 出 现在 
文献 文本 中 的 方法 部 分 ， 因 此 ， 结 合 上 述 抽 取 规 则 ， 抽 取 方 
法 部 分 的 步骤 小 标题 作为 图 表 标 引 方法 部 分 的 信息 来 源 。 除 
此 之 外 ,在 调研 的 过 程 中 , 发 现在 自然 科学 领域 中 文献 的 方 
法 部 分 通常 会 多 次 重复 该 研究 引用 的 领域 内 某 些 经 典 的 方 
法 ， 比 如 : 杜 马 斯 燃烧 法 。 因 此 可 以 通过 抽取 经 统计 的 方法 
部 分 词 频 最 高 的 词语 作为 图 表 内 容 摘 要 的 方法 部 分 。 

@@ 结 论 : 在 文献 图 表 周 边 的 文字 通常 难以 提取 该 图 表 
的 结论 ， 因 此 ， 本 研究 认为 图 表 结 论 部 分 的 图 表 信 息 通 常 来 
源 于 文献 文本 中 的 结果 部 分 。 对 于 图 表 标 引 的 结论 ， 本 文 
通过 线索 词 及 指示 性 短语 等 特征 ， 结 合 滑动 窗口 ， 从 文献 
结果 中 抽取 相应 的 图 表 结 论 ， 作 为 图 表 标 引 结论 部 分 的 信 
息 来 源 。 

3.3 ”模型 的 评价 方法 

(1) 模型 指标 规定 

从 前 期 的 文献 调研 中 , 笔者 认为 用 户 对 于 图 片 的 
理解 是 可 以 量化 的 , 通俗 而 言 , 即 理解 了 多 少 信息 、 用 
了 多 少时 间 、 这 些 信 息 对 于 用 户 而 言 是 否 足够 他 们 理 
解 文献 的 主题 内 容 等 。 据 此 ， 本 研究 用 “信息 理解 程 
度 ” 这 一 指标 指 代 研究 人 员 理 解 图片 信 息 的 程度 ; 用 
“图 片 理解 效率 ”这 一 指标 指 代 研 究 人 员 认 为 自己 正确 
理解 图 片 所 用 时 长 ; 用 “信息 覆盖 率 ” 这 一 指标 指 代 研 
究 人 员 认 为 本 研究 设计 的 图 表 标 引 摘要 禾 盖 的 信息 占 
全 文 信息 的 比率 。 除 此 之 外 , 还 参考 了 Yu 等 中 的 研究 ， 
增设 了 “确信 度 ” 这 一 变量 ， 即 用 户 本 人 对 自己 前 三 项 
指标 的 打分 的 确定 程度 , 通过 用 户 对 4 种 模式 下 图 片 
信息 相关 指标 打分 的 确信 度 评 分 情况 也 可 以 在 一 定 程 
度 上 为 本 研究 提供 辅助 评判 4 种 模式 优 劣 的 依据 。 

(2) 评测 打分 、 流 程 及 分 析 方 法 

本 文 设 计 了 一 套 评 测 系统 , 包含 4 种 图 表 - 文 本 组 
织 模式 , 结合 以 上 4 项 指标 , 设计 了 相应 的 打分 表 ， 如 
表 1 所 示 。 


表 1 评测 打分 表 


信息 图 片 信息 
理解 程度 理解 效率 ” 履 盖 率 


图 表 - 文 本 组 合 模式 


片 + 标题 
片 + 标题 + 摘要 
片 + 全 文 

片 + 图 表 摘 要 


确信 度 


允 页 两 页 


利用 李 克 特 量 表 (Likert Scale) 忆 量化 用 户 对 图 片 的 
理解 能 力 : 邀请 每 位 参与 评测 的 用 户 阅 读 用 于 评测 的 
文献 并 理解 其 文献 主题 内 容 ， 对 4 种 模式 下 基于 图 片 及 
文本 信息 的 信息 理解 程度 、 信 息 理解 效率 、 信 息 覆 盖 率 
及 确信 度 4 项 指标 从 1-10 分 打分 (1 分 是 最 低 分 、10 分 
是 最 高 分 ), 分 值 的 高 低 预示 用 户 在 4 种 不 同 模式 下 理解 
图 片 的 能 力 , 进而 反映 了 用 户 在 这 4 种 图 表 - 文 本 组 合 模 
式 下 , 对 文献 主题 内 容 的 理解 程度 。 

在 取得 所 有 参与 评测 的 用 户 的 打分 结果 后 , 在 
SPSS 应 用 软件 中 用 单 因 子 方差 分 析 法 对 评分 结果 进 
行 统 计 ， 然 后 结合 3.2 节制 定 的 图 表 摘 要 抽取 方法 对 


评分 结果 进行 分 析 。 
4 ”论文 图 表 摘要 测评 
4.1 评测 系统 制定 


(1) 评测 模式 制定 

综合 文献 及 访谈 调研 的 结果 , 本文 设计 出 了 4 种 
用 于 论文 图 表 摘 要 测评 的 图 表 - 文 本 组 合 模 式 : 图 片 + 
标题 (FiguretTitle); 图 片 + 标题 + 摘要 (Figure+Title+ 
Abstracb; 图 片 + 全 文 (Figure+Full-texb; 图 片 +( 本 文 构 
建 的 ) 图 表 摘 要 (Title+Summarization)。 
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(2) 评测 对 象 选取 

选取 30 名 图 书 情 报 专 业 方向 的 研究 生 , 让 他 们 在 
没有 任何 时 间 限 制 下 完成 本 研究 的 测评 。 

(3) 评测 图 表 选 择 

在 中 国 知 网 数据 库 经 检索 与 筛选 ,最 终 选择 10 篇 图 
书 情报 领域 的 、 拥 有 多 种 图 片 类 型 (如 : 凝 胶 图 像 、 表 格 、 
事物 的 图 形 、 模 型 以 及 流程 图 等 )、 行文 也 较为 典型 的 期 
刊 论文 , 由 一 名 实验 人 员 严 格 按照 第 3 节制 定 的 规则 分 
别 对 文献 中 36 幅 图 示人 工 生成 对 应 的 图 表 摘 要 , 并 分 别 
对 这 36 幅 图 示人 工 抽取 了 “图 片 + 标题 "、“ 图 片 + 标题 + 
摘要 ”、“ 图 片 + 全 文 ”这 三 种 图 表 - 文 本 组 合 模 式 , 模式 记 
录 完 成 之 后 , 由 另 一 名 实验 人 员 按 同一 步骤 检查 前 一 名 
实验 人 员 是 否 有 主观 意识 上 的 偏颇 并 给 予 修正 。 
4.2 ”评测 结果 与 分 析 

(1) 文献 主题 内 容 理 解 能 力 分 析 

在 SPSS 软件 中 , 将 信息 理解 程度 、 信 息 理解 效率 
和 信息 覆盖 率 按照 40% : 40% : 20% 的 权重 分 配 转 换 
为 一 个 名 为 “总 评 * 的 虚拟 变量 ， 以 此 作为 用 户 的 “文献 
主题 内 容 理 解 能 力 ” 指 标 。 

分 别 以 “总 评 *"、“ 确 信 度 ”作为 因子 进行 单 因 子 方 
差分 析 , 结果 如 表 2 所 示 。 


因 变 量 Bi 确信 度 
源 II 型 平方 和 df 均 方 F Sig.， III 型 平方 和 df 均 方 F Sig. 

校正 模型 1200.014 3 400.005 318.681 0 163.569 3 54.523 20.365 0 
截 距 57355.779 1 57355.779 45694.903 0 64489.341 1 64489.341 24087.159 0 
类 型 1200.014 3 400.005 318.681 0 163.569 3 54.523 20.365 0 
误差 1501.207 1196 1.255 3202.090 1196 2.677 

总 计 60057.000 1200 67855.000 1200 

校正 的 总 计 2701.221 1199 3365.659 1199 


由 表 2 的 检验 结果 可 知 , 不 同 图 表 - 文 本 组 合 模 
式 下 ,用 户 的 图 片 信 息 理 解 能 力 里 与 评分 的 确信 和 度 
的 确 会 因 图 表 - 文 本 组 合 模 式 的 不 同 而 有 所 差异 (F 
总 评 (3，1196)=318.681, p<0.01、F 确信 和 度 (3, 1196)= 
20.365, p<0.01)。 总 评 及 确信 和 度 的 均值 及 偏差 如 表 3 
所 示 。 

从 表 3 中 可 知 , 随 着 4 种 图 表 - 文 本 组 合 模式 中 所 
提供 的 文献 文本 的 范围 加 大 ， 用 户 对 文献 主题 内 容 的 
理解 能 力 和 对 评分 的 确信 和 度 也 随 之 增高 , 例如， 以 “图 
片 + 标 题 ” 这 种 图 表 - 文 本 组 合 模式 为 基线 ， 当 增加 了 


文献 摘要 时 ,用 户 对 文献 主题 的 理解 能 力 提高 了 
24.2%， 对 评分 的 确信 度 也 增高 了 6.54%; 当 增 加 了 本 
文生 成 的 图 表 摘 要 时 (此 摘要 中 包括 图 片 标题 ), 用 户 
对 文献 主题 的 理解 能 力 提高 了 41.6%， 对 评分 的 确信 
度 也 增高 了 4.40%; 当 提供 文献 全 文 时 , 用户 对 文献 
主题 的 理解 能 力 提 高 了 48.0%， 对 评分 的 确信 和 度 也 增 
高 了 7.12%。 因此 , 增加 了 摘要 和 标题 对 用 户 理 解 文 献 
主题 都 有 一 定 程度 上 的 帮助 , 但 全 文 内 容 能 够 最 大 限 
度 地 增 大 用 户 的 文献 主题 的 理解 能 力 , 而 本 文 所 构建 
的 图 表 摘 较 文 献 摘要 表现 更 好 。 


Data Analysis and Knowledge Discovery 


表 3 文献 主题 内 容 理 解 能 力 (总 评 ) 与 确信 度 的 均值 及 偏差 


图 表 - 文 本 组 合 模式 总 评 确信 度 
图 片 + 标 题 5.38+1.25 6.88+1.65 
图 片 + 标题 + 摘要 6.68+1.13 7.33+1.58 
图 片 + 图 表 摘 要 (本 研究 构建 ) ”7.62+1.18 7.18+1.79 
图 片 + 全 文 7.96+0.89 7.37+1.68 


对 图 表 - 文 本 组 合 的 4 种 模式 两 两 对 比 后 可 得 到 
模式 间 的 差异 。 将 用 户 对 文献 主题 的 理解 能 力作 为 因 
子 检验 后 , 得 到 的 结果 如 表 4 所 示 。 

表 4 文献 主题 内 容 理 解 能 力 因 子 F 检验 结果 
均值 差 值 ”标准 


(类 型 (了 类 型 CD 误差 Sig. 
图 片 + 标题 + 摘要 -1.297 0.091 0.001 
图 片 + 标题 到 片 + 全 文 -2.239 “0.091 0 
图 片 + 图 表 摘 要 -2.580 ”0.091 0 
习 片 + 标题 1.297 0.091 0.001 
图 片 + 标题 + 摘要 。 图 片 + 全 文 -0.942 0.091 0.006 
图片 + 图 表 摘要 -1.283 0.091 0 
图 片 + 标题 2.239 0.091 0 
图 片 + 全 文 习 片 + 标题 + 摘要 0.942 0.091 0.006 
图 片 + 全 文 -0.341 0.091 1.000 
妈 片 + 标题 2.580 ”0.091 0 
图 片 + 图 表 摘 要 图 片 + 标题 + 摘要 1.283 0.091 0 
到 片 + 全 文 0.341 0.091 1.000 
由 表 4 可 知 , 将 用 户 对 文献 信息 理解 的 三 个 维度 


转换 为 一 个 维度 时 ,只 有 “图 片 + 图 表 摘 要 (本 研究 构 
建 )* 与 “图 片 + 全 文 ” 这 两 种 模式 下 ， 用 户 对 文献 主题 的 
理解 能 力 无 显著 差异 (显著 性 p=1.000>0.05)， 其余 模 
式 之 间 的 比较 都 呈 显 车 差异 (显著 性 p 志 0.05), 由 此 可 
知 ， 严 格 按 照 本 文 制定 的 规则 所 生成 的 图 表 摘 要 对 用 
户 理解 文献 主题 的 作用 与 用 户 通 读 全 文 对 理解 文献 主 
题 的 作用 呈 极 大 相似 性 , 且 其 影响 程度 远大 于 “图 片 + 
标题 "模式 及 “图 片 + 标题 + 文献 摘要 ”模式 。 

在 得 到 这 些 结果 的 基础 上 ,进一步 将 用 户 对 文献 
主题 理解 的 三 项 指标 ( 即 信 息 理 解 程度 、 图 片 信息 理解 
效率 、 信 息 履 羡 率 ) 分 别 作为 因子 进行 分 析 。 

(2) 文献 主题 内 容 理解 的 三 项 指标 分 析 

中 以 信息 理解 程度 为 因子 

利用 SPSS 软件 ， 以 信息 准确 度 为 单 因子 进行 单 因子 方 
差分 析 ， 结 果 如 表 5 所 示 。 可 知 ,不 同 于 其 余 模 式 成 对 比较 
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在 “图 片 + 图 表 摘 要 ”与 “图 片 + 全 文 ” 这 两 种 模式 下 ,用户 对 图 
片 信 息 的 理解 程度 无 显著 性 差异 (显著 性 p=0.139>0.05), 例 
如 在 “图 片 + 图 表 摘 要 ”及 “图 片 + 标 题 + 摘 要 ”两 种 模式 下 ， 用 
户 对 图 片 信 息 的 理解 程度 有 显著 性 差异 (显著 性 
p=0.061>0.05)。 因 此 ,可 以 推断 本 研究 所 构建 的 图 表 摘 要 对 
用 户 而 言 ， 对 图 片 信息 的 理解 程度 与 其 通过 直接 阅读 全 文 
文献 来 理解 图 片 信息 的 程度 有 极 大 相似 性 ， 且 本 研究 所 构 
建 的 图 表 摘 要 在 这 一 维度 上 的 表现 远 好 于 文献 摘要 。 

结合 3.2 节制 定 的 摘要 抽取 方法 ， 本 研究 认为 图 片 信 息 
理解 程度 的 高 低 与 线索 词 及 指示 性 短语 的 选取 有 密切 关系 ， 
即 前 期 工作 中 归纳 的 线索 词 词 表 及 指示 性 短语 列表 是 否 完 
整 直接 影响 图 片 信 息 的 抽取 , 进而 影响 用 户 对 图 片 信息 的 
理解 。 因 此 ,在 今后 的 研究 中 , 仍 需 要 针对 特定 领域 制定 相 
应 完整 精确 的 、 有 该 领域 科技 论文 用 词 特 点 的 线索 词 词 表 及 
指示 性 短语 列表 ,以 获得 更 高 的 信息 理解 程度 。 

@) 以 图 片 信 息 理解 效率 为 因子 

利用 SPSS 软件 ， 以 信息 理解 效率 为 单 因子 进行 分 析 ， 
结果 如 表 5 所 示 。 可 知 ， 在 “图 片 + 标 题 "与 "图片 + 全 文 ”? 这 两 
种 模式 下 ,用 户 对 图 片 信息 的 理解 效率 无 显著 性 差异 (p= 
1.000>0.05)， 在 “图 片 + 标 题 ” 这 一 模式 下 ， 虽 然 用 户 用 于 理 
解 图 片 的 速率 最 高 但 其 理解 图 片 信息 的 效果 最 差 ， 而 在 “图 
片 + 全 文 ” 这 一 模式 下 ， 虽 然 用 户 理解 图 片 信 息 的 效果 最 好 但 
其 用 于 理解 图 片 的 速率 最 低 ， 所 以 两 项 指标 结合 使 得 两 种 模 
式 下 ,用 户 对 于 图 片 信 息 的 理解 效率 都 较 低 ; 在 “图 片 + 标题 + 
摘要 ”与 “图 片 + 全 文 " 两 种 模式 下 ,用 户 对 图 片 信 息 的 理解 效 
率 无 显著 性 差异 (p=0.639>0.05)， 相 较 于 “图 片 + 全 文 ”， 在 “图 
片 + 标 题 + 摘 要 ”这 种 模式 下 ， 用 户 用 于 理解 图 片 的 速率 有 一 
定 程度 下 降 但 其 理解 图 片 信息 的 效果 有 一 定 程度 的 提高 ; 在 
“图 片 + 图 表 摘 要 ”与 “图 片 + 全 文 ”两 种 模式 下 ,用户 对 图 片 信 
息 的 理解 效率 有 显著 性 差异 (p<0.05)， 结合 上 文 分 析 以 及 在 
“图 片 + 图 表 摘 要 ”与 “图 片 + 标题 + 摘要 ”两 种 模式 下 ,科研 人 员 
对 图 片 信息 的 理解 效率 的 无 显著 性 差异 (p=0.029<0.05), 笔者 
认为 ， 本 研究 构建 的 图 表 摘 要 对 用 户 理解 图 片 信息 而 言 ， 效 
果 虽 不 如 全 文 文献 模式 但 较 文 献 摘要 模式 而 言 更 好 , 速率 虽 
不 敌 文献 摘要 模式 但 较 全 文 文献 模式 好 。 总 之 , 在 这 一 维度 
上 , 本 研究 构建 的 图 表 摘 要 的 表现 较 其 余 三 种 模式 更 优 。 

结合 3.2 节制 定 的 摘要 抽取 方法 ,本 文 认为 图 片 信 息 理 
解 效率 与 滑动 窗口 K 的 选取 有 密切 关系 。 图 片 信息 理解 效 
率 较 高 ， 这 与 图 表 摘 要 的 篇 幅 及 信息 理解 程度 指标 的 表现 
均 有 关联 。 对 于 篇 幅 而 言 ， 滑动 窗口 K 的 选取 也 并 不 是 越 小 
越 好 , 而 是 要 结合 较 高 程度 的 图 片 信 息 理解 能 力 综合 评判 
因此 ,在 今后 的 研究 中 ,需要 选取 不 同 的 K 值 进 行 试验 , 通 
过 比较 试验 结果 中 图 片 信息 理解 程度 的 高 低 来 确定 较为 合 
适 的 KK 值 。 

@) 以 图 片 信息 履 盖 率 为 因子 

利用 SPSS 软件 ， 以 信息 窗 盖 率 为 单 因 子 进行 分 析 ， 结 
果 如 表 5 所 示 。 可 知 ,在 这 一 维度 下 , 4 种 模式 成 对 比较 之 后 ， 
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4 种 模式 下 的 图 片 信息 履 盖 率 均 有 显著 性 差异 (三 0.05)， 笔 
者 对 此 有 两 种 推断 : 本 研究 构建 的 图 表 摘 要 中 所 含有 的 图 
片 信息 比 文献 摘要 或 全 文 文献 中 的 图 片 信息 更 专 指 、 对 用 户 
理解 图 片 更 能 起 作用 ; 本 研究 所 构建 的 图 表 摘 要 包含 较 多 
对 用 户 理解 图 片 起 作用 的 信息 , 但 与 图 片 关联 却 对 用 户 理 
解 图 片 作用 不 大 的 信息 的 履 盖 率 较 低 。 
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结合 3.2 节制 定 的 摘要 抽取 方法 ,本 研究 认为 信息 履 盖 
率 的 高 低 与 滑动 窗口 K 的 选取 有 密切 关系 ,KK 值 的 选取 偏 大 
或 偏 小 都 会 导致 信息 履 盖 率 偏 低 。 因 此 ， 在 今后 的 研究 中 ， 
需要 根据 学 科 领 域 科技 论文 的 造句 特点 选取 不 同 的 K 值 进 
行 试验 ,通过 比较 试验 结果 中 信息 履 盖 率 的 高 低 确 定 较为 
合适 的 区 值 。 


表 5 基于 三 项 指标 的 模式 成 对 对 比 


模式 信息 理解 程度 信息 理解 效率 信息 覆盖 率 
" | 均值 差 值 ”标准 | 均值 差 值 ”标准 。 均值 差 值 ”标准 
I 类 型 J es 5 人 
类 ] 类 型 0D 无 误 Sig GD 无 误 0D 无 误 8 
图 片 + 标题 + 摘要 -1.597 0.124 0 -0.937 0.130 0.639 -1.417 0.112 0 
图 片 + 标题 图 片 + 全 文 -3.127 0.124 0 -0.323 0.130 1.000 —4.293 0.112 0 
图 片 + 图 表 摘 要 -2.697 0.124 0 -2.260 0.130 0 —2.987 0.112 0 
图 片 + 标题 1.597 0.124 0 0.937 0.130 0.639 1.417 0.112 0 
图 片 + 标题 + 摘要 ”图片 + 全 文 -1.530 0.124 0 0.613 0.130 0.639 -2.877 0.112 0 
图 片 + 图 表 摘 要 -1.100 0.124 0.061 —1.323 0.130 0.029 -1.570 0.112 0.024 
图 片 + 标题 3.127 0.124 0 0.323 0.130 1.000 4.293 0.112 0 
图 片 + 全 文 图 片 + 标题 + 摘要 。 1.530 0.124 0 -0.613 0.130 0.639 2.877 0.112 0 
图 片 + 图 表 摘 要 0.430 0.124 0.139 —1.937 0.130 0 1.307 0.112 0 
图 片 + 标题 2.697 0.124 0 2.260 0.130 0 2.987 0.112 0 
图 片 + 图 表 摘 要 ”图 片 + 标题 + 摘要 1.100 0.124 ”0.061 1.323 0.130 0.029 1.570 0.112 0.024 
图 片 + 全 文 -0.430 0.124 0.139 1.937 0.130 0 -1.307 0.112 0 
<。 结语 根据 本 研究 设计 的 结构 与 规则 而 形成 的 图 表 摘 要 在 图 
< 坦 


对 于 科研 人 员 来 说 , 文献 中 图 片 下 方 图 释 以 外 
的 、 存 在 于 文献 文本 中 的 内 容 对 于 图 片 的 正确 理解 是 
至 关 重 要 的 ,因此 , 基于 用 户 的 研究 需求 , 通过 文献 及 
访谈 调研 的 方法 , 结合 人 工 标 注 的 结果 及 图 情 领 域 科 
技 论文 摘要 、 图 表 的 特征 ,本 研究 以 图 书 情报 领域 为 
实证 对 象 , 制定 了 用 于 构建 中 文科 技 论文 图 表 摘 要 的 
规则 , 包括 图 表 摘 要 的 抽取 规则 及 组 织 规则 ,并 设计 
了 4 种 图 表 - 文 本 组 织 模式 进行 评测 。 

根据 评测 结果 可 知 : 通过 设置 合适 的 K 值 可 以 提 
高 信息 覆盖 率 ; 通过 建立 相应 完整 精确 的 、 有 该 领域 
科技 论文 用 词 特点 的 线索 词 词 表 及 指示 性 短语 列表 ， 
可 以 提高 图 片 信息 的 理解 程度 ， 进 而 提高 文献 主题 内 
容 的 理解 程度 ; 对 于 提高 图 片 信息 理解 效率 而 言 , 需 
要 在 获得 较 高 图 片 信息 理解 程度 的 基础 上 综合 考量 滑 
动 窗口 K 的 取 值 。 本 研究 以 图 书 情报 为 例 研 究 了 中 文 
科技 论文 图 表 摘 要 构建 的 方法 流程 和 实现 路 径 ,发现 


片 信息 理解 程度 、 信 息 理解 效率 及 信息 覆盖 率 三 大 维 
度 上 的 表现 均 较 优 。 但 也 存在 不 足 , 在 今后 的 工作 中 ， 
将 就 如 何 确定 K 的 取 值 及 如 何 实现 高 效 地 自动 化 抽取 
图 表 摘 要 等 方向 进一步 研究 , 并 将 本 文 的 研究 结果 在 
其 他 学 科 领 域 进行 实验 。 
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Abstract: [Objective] This paper studies the figures of Chinese articles in the field of library and information science 
(LIS), aiming to establish new principles to summarize them. [Methods] We proposed the framework and rules for 
figure summarization based on manual indexing and features of LIS papers. Then, we evaluated the performance of the 
new system with the help of SPSS. [Results] Compared with the existing figure-text model, our method could more 
effectively process information from the figures. [Limitations] We need to extract more information from the figures, 
analyze the influences of different charts, and add automatic indexing functions to the new system. [Conclusions] The 
proposed method could effectively summarize figures from the scholarly articles. 
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